
动态场景,开放文本查询!清华哈佛联合建模4D语言场 | CVPR 2025
动态场景,开放文本查询!清华哈佛联合建模4D语言场 | CVPR 20254D LangSplat通过结合多模态大语言模型和动态三维高斯泼溅技术,成功构建了动态语义场,能够高效且精准地完成动态场景下的开放文本查询任务。该方法利用多模态大模型生成物体级的语言描述,并通过状态变化网络实现语义特征的平滑建模,显著提升了动态语义场的建模能力。
来自主题: AI技术研报
3520 点击 2025-04-02 15:05